Color is a critical design factor for web pages, affecting important factors such as viewer emotions and the overall trust and satisfaction of a website. Effective coloring requires design knowledge and expertise, but if this process could be automated through data-driven modeling, efficient exploration and alternative workflows would be possible. However, this direction remains underexplored due to the lack of a formalization of the web page colorization problem, datasets, and evaluation protocols. In this work, we propose a new dataset consisting of e-commerce mobile web pages in a tractable format, which are created by simplifying the pages and extracting canonical color styles with a common web browser. The web page colorization problem is then formalized as a task of estimating plausible color styles for a given web page content with a given hierarchical structure of the elements. We present several Transformer-based methods that are adapted to this task by prepending structural message passing to capture hierarchical relationships between elements. Experimental results, including a quantitative evaluation designed for this task, demonstrate the advantages of our methods over statistical and image colorization methods. The code is available at https://github.com/CyberAgentAILab/webcolor.
translated by 谷歌翻译
消费者经常阅读产品评论以告知他们的购买决定,因为一些消费者想了解产品的特定组成部分。但是,由于产品评论上的典型句子包含各种详细信息,因此用户必须在许多评论中识别有关他们想知道的组件的句子。因此,我们旨在开发一个系统,以识别和收集句子中产品的组件和方面信息。我们基于BERT的分类器分配了标签,这些标签参考了评论中的句子和句子的各个方面,并提取有关特定组件和方面的评论的句子。我们根据产品评论的模式匹配来确定的单词确定了适当的标签,以创建培训数据。因为我们无法将单词用作标签,所以我们仔细创建了涵盖单词含义的标签。但是,培训数据在组件和方面对不平衡。我们使用WordNet介绍了一种数据增强方法来减少偏差。我们的评估表明,该系统可以使用图案匹配来确定道路自行车的标签,涵盖了88%以上的电子商务网站上的组件和方面指标。此外,我们的数据增强方法可以从0.66到0.76提高F1的F1量度。
translated by 谷歌翻译
我们将2D盲点估计作为道路场景理解的关键视觉任务。通过自动检测从车辆有利位置阻塞的道路区域,我们可以主动提醒手动驾驶员或自动驾驶系统,以实现事故的潜在原因(例如,引起人们对孩子可能逃脱的道路区域的注意)。在完整3D中检测盲点将是具有挑战性的,因为即使汽车配备了LIDAR,3D推理也会非常昂贵且容易发生。相反,我们建议从单眼相机中学习估计2D中的盲点。我们通过两个步骤实现这一目标。我们首先引入了一种自动方法,用于通过利用单眼深度估计,语义细分和SLAM来生成``地面真相''盲点训练数据,以进行任意驾驶视频。关键的想法是在3D中推理,但要从2D图像定义为那些目前看不见但在不久的将来看到的道路区域。我们使用此自动离线盲点估计来构建一个大规模数据集,我们称之为道路盲点(RBS)数据集。接下来,我们介绍BlindSpotnet(BSN),这是一个简单的网络,该网络完全利用此数据集,以完全自动估算框架盲点概率图,以用于任意驾驶视频。广泛的实验结果证明了我们的RBS数据集的有效性和BSN的有效性。
translated by 谷歌翻译
重复是一种反应,可以在对话中重复上一位演讲者的话语中的单词。如语言研究所述,重复对于与他人建立信任至关重要。在这项工作中,我们专注于重复生成。据我们所知,这是解决重复产生的第一种神经方法。我们提出了加权标签平滑,一种平滑方法,用于明确学习在微调过程中重复哪些单词,以及一种重复评分方法,可以在解码过程中输出更合适的重复。我们进行了自动和人类评估,涉及将这些方法应用于预先训练的语言模型T5来产生重复。实验结果表明,我们的方法在两种评估中都超过了基线。
translated by 谷歌翻译
视网膜血管疾病影响人体的福祉,有时会提供其他缺陷的身体损伤的生命体征。最近,已经成功地应用了深度学习技术以检测糖尿病视网膜病变(DR)。应用深层学习技术的主要障碍检测大多数其他视网膜血管疾病是可用的有限数量的数据。在本文中,我们提出了一种转移学习技术,其旨在利用用于检测视网膜血管疾病的特征相似性。我们选择良好的DR检测作为源任务,并确定作为目标任务的早产儿(ROP)视网膜病变的早期检测。我们的实验结果表明,我们的DR预训方法在所有指标中占据了传统的想象预训过的转移学习方法,目前在医学图像分析中采用。此外,我们的方法对培训过程的随机性以及减少训练样本方面更加强大。本研究表明,我们建议的转移学习方法具有广泛的视网膜血管疾病或病态的潜力,其中数据有限。
translated by 谷歌翻译
基于变化的AutoEncoder的语音转换(VAE-VC)具有仅需要对培训的发言和扬声器标签的优势。与VAE-VC中的大部分研究不同,专注于利用辅助损失或离散变量,研究了如何增加模型表达式对VAE-VC的益处和影响。具体而言,我们首先将VAE-VC分析到速率 - 失真的角度,并指出模型表达性对于VAE-VC来说意义重大,因为速率和失真反映了转化的演示的相似性和自然度。基于分析,我们提出了一种使用深层等级vae的新型VC方法,具有高模型表达性,并且由于其非自动增加的解码器而具有快速转换速度。此外,我们的分析揭示了另一个问题,当VAE的潜变量具有冗余信息时,相似性可以降级。通过使用$ \ beta $ -vae目标控制潜在变量中包含的信息来解决问题。在使用VCTK Corpus的实验中,所提出的方法在性别间环境中的自然和相似性上实现了高于3.5的平均意见分数,其高于现有的基于AutoEncoder的VC方法的分数。
translated by 谷歌翻译
由Spivak和Fong和Cruttwell等人的基础作品的启发,我们介绍了一个分类的框架来形式化贝叶斯推断和学习。在这里玩的两个关键想法是Cruttwell等人建造的贝叶斯反转和仿函数的概念。在这种情况下,我们发现贝叶斯学习是学习范例的最简单案例。然后,我们获得批量和顺序贝叶斯更新的分类配方,同时还验证了两个在特定示例中一致。
translated by 谷歌翻译
在自然语言处理(NLP)中,通常从频率信息估计n-gram的似然比(LR)。然而,语料库只包含可能的n克的一小部分,并且它们中的大多数很少发生。因此,我们希望LR估算器用于低频和零频率N-GRAM。实现这一目标的一种方法是将n-gram分解成离散值,例如字母和单词,并占据LRS的乘积。但是,因为该方法处理大量离散值,所以估计的运行时间和内存用法是有问题的。此外,使用不必要的离散值会导致估计精度的恶化。因此,本文提出将上述方法与文档分类中使用的特征选择方法相结合,并表明我们的估计器为低频和零频率提供了有效和有效的估计结果。
translated by 谷歌翻译